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Ozetfe —Ya§adigimiz Biiyiik Veri ^aginda, makine ogrenmesi 
tabanli veri madenciligi yontemleri, yiiksek boyutlu veri setlerinin 
analiz edilmesinde yaygin olarak kullamlmaktadir. Bu tip veri 
setlerinden kullani^li tahmin modellerinin ^ikardmasi i$lemi, 
yiiksek karma^iklik nedeniyle zorlayici bir problemdir. Veri er- 
i^iminin yiiksek seviyelere ula^masimn sagladigi firsatia, bunlarin 
otomatik olarak siniflandirdmasi dnemli ve karma^ik bir gdrev ol- 
maya ba$lami§tir. Dolayisiyla, bu bildiride giivenilir siniflandirma 
tahmin model kiimelerinin olu^turulmasi i^in MapReduce tabanli 
dagitik A§iri Ogrenme Makinesi (AOM) ara$tirilmi§tir. Buna 
gore, (i) veri kiimesi topluluklari olu^turulmasi (ii) AOM kul- 
lanilarak zayif siniflandirma modellerin olu^turulmasi ve (iii) 
zayif siniflandirma model kiimesi ile gii^lii siniflandirma model! 
olu§turulmu§tur. Bu egitim ydntemi, genel kullamma a^ik bilgi 
ke§fl ve veri madenciligi veri setlerine uygulanmi§tir. 

Anahtar Kelimeler —Ajiri Ogrenme Makinesi, AdaBoost, Biiyiik 
Veri, Topluluk Metodlari, MapReduce 

Abstract —In this age of Big Data, machine learning based 
data mining methods are extensively used to inspect large scale 
data sets. Deriving applicable predictive modeling from these type 
of data sets is a challenging obstacle because of their high com¬ 
plexity. Opportunity with high data availability levels, automated 
classification of data sets has become a critical and complicated 
function. In this paper, the power of applying MapReduce based 
Distrihuted AdaBoosting of Extreme Learning Machine (ELM) 
are explored to huild reliable predictive bag of classification 
models. Thus, (i) dataset ensembles are build; (il) ELM algorithm 
is used to build weak classification models; and (iii) build a strong 
classification model from a set of weak classification models. This 
training model is applied to the publicly available knowledge 
discovery and data mining datasets. 

Keywords—Extreme Learning Machine, AdaBoost, Big Data, 
Ensemble Methods, MapReduce 

I. GiRi§ 

Diinya genelinde bilgisayarlar, cep telefonlari ve sen- 
sorler gibi cihazlar tarafindan iiretilen bilgi uzerinde hem 
biiyiikliik hem de 9e§it bakimmdan olduk9a yiiksek miktarda 
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arti§ ya§anmaktadir. Bilgisayar teknolojisinin geli§mesiyle be- 
raber biiyiik veri olarak adlandirdigimiz konsept hemen her 
tiirde bilginin depolanmasma odaklanmi§tir. Yiiksek boyutlu 
veriden kullanilabilir tahmin modellerinin 9ikarilmasi i§lemi 
artik biiyiik veri kavrammm i9erisinde dii§iiniilmektedir. Bu 
yiiksek boyutlu verinin tahmin modellerinde kullanilmasmm 
artmasiyla beraber, ogrenme algoritmalarmm egitiminin kar- 
ma§ikligida artmaktadir. Bu nedenden dolayi, yiiksek boyutlu 
veri setlerinin verimli bir §ekilde i§lenebilmesi i9in 9e§itli 
topluluk metotlari ve siniflandirma algoritmalarim birle§tiren 
makine ogrenmesi yontemleri geli§tirilmesi gerekmektedir. 

A§iri ogrenme makinesi (AOM), Huang tarafindan [1], 
genelle§tirilmi§ tek katmanli ileri beslemeli ag yapisi temel 
ahnarak geli§tirilmi§tir. AOM, dii§iik egitim zamani, 90k sinifli 
egitim kiimelerinde yeni ornekler uzerinde yiiksek genelleme 
ozelligi ve herhangi bir egitim parametresi i9ermemesi gibi 
avantajlarmdan dolayi, dokiiman siniflandirma [2], biyoen- 
formatik [3], goriintii tanima [4] gibi bir 90k farkh alanda 
kullamlmaktadir. 

Son yillarda ara§tirmacilar, tahmin modellemesi i9in 
dagitik ve paralel 9atilarla ilgili yontemler geli§tirmektedirler. 
^ali§malarin 90k az bir kismi MapReduce yontemini kullan- 
maktadir. Bu 9ali§mada onerilen yontem, yiiksek boyutlu veri 
setlerinden tahmin modeli olu§turmak i9in, farkh boyutlarda 
rassal veri par9alari olu§turarak bunlari egitim a§amasinda 
kullanmak, bu §ekilde AOM algoritmasi ve AdaBoost yontemi 
ile siniflandirma fonksiyon kiimesi olu§turmaktadir. MapRe¬ 
duce kullanilarak, veri setinden alt veri par9alari olu§turularak 
egitilen AdaBoost, topluluk yontemleri ile birle§tirilerek, tekil 
bir global siniflandirma fonksiyonu ortaya 9ikarilmaktadir. 
^ali§manin en onemli katkilari §u §ekildedir: 

• Genelle§tirilmi§ MapReduce teknigi temelli AdaBoost 
AOM siniflandirma modeli ile daha hizli ve daha 
iyi siniflandirma performansma sahip model elde 
edilmektedir. 

• Bu 9ah§manin onerdigi yeni ogrenme yontemi ile elde 
edilen paralel egitim, yiiksek boyutlu veri setlerinin 
ogrenme i9in kullandigi hesaplama zamanim azalt- 
maktadir. 



• Egitim esnasmda kullanilan her bir diigiim (node) 
digerinden bagimsiz olmasmdan dolayi veri haber- 
le§mesi azalmaktadir. 


II. ON BiLGiLER 

Bu boliimde, ^abgmada kullanilan AOM, AdaBoost ve 
MapReduce hakkmda bilgi verilecektir. 

A. A§in Ogrenme Makinesi 

AOM, ilk olarak tek katmanli ileri beslemeli sinir agi 
olarak geli§tirilmi§tir [ 1 ]. Daha sonra yapilan ^aligmalarda gizli 
katmanm sadece noron olmadigi genelle§tirilmi§ tek katmanli 
ileri beslemeli ag 6nerilmi§tir [ 7 ]. AOM, olu§turdugu sinir 
aginin giri§ agirliklari ile gizli diigiim egimi degerlerini rassal 
olarak olu§turmakta ve 9ikti katmani agirliklari en kii^iik 
kareler yontemi ile hesaplamaktadir [8]. 

Bilinmeyen bir X dagilimmdan elde edilen bagimsiz 
6zde§9e dagilmi§ egitim veri kiimesi V = {(x^ji/i) | i = 
n},Xi G R^, Ui G { 1 , 2 ,...,K}} olsun. Sinir aginin 
hedefi f : X —>■ y §eklinde fonksiyonu bulmaktir. N gizli 
diigiime sahip tek katmanli ileri beslemeli sinir agi Denklem 
I’de tanimlanmi§tir. 

N 

/jv(x) =^AG(a„ 6 „x), xeR”, a, e R" ( 1 ) 

i=l 

a^ ve bi ogrenme parametresi, fii ise i. gizli diigiimiin agir- 
ligidir. Genelle§tirilmi§ tek katman ileri besleme sinir agi i9in 
AOM’nin 9ikti fonksiyonu Denklem 2 ’de g6sterilmi§tir. 

N 

/Ar(x) = ^ l 3 iG{ai,bi, x) = 13 x h{x) (2) 

i=l 


Ikili simflandirma uygulamalari i9in AOM karar fonksiyonu 
ise Denklem 3 ’de g6sterilmi§tir. 

/Ar(x) = sign ^ l 3 iG{ai,bi, x) = sign {(3 x /i(x)) ( 3 ) 


Denklem 2 diger bir form olarak Denklem 4 ’de g6sterilmi§tir. 


HI 3 = T 


( 4 ) 


H ve T sirasiyla gizli katman matrisi ve 9ikti matrisidir. Gizli 
katman matrisi Denklem 5 ’de g6sterilmi§tir. 

G{ai,bi,xi) ■■■ G{ai,bi,xi) 


H{a, b, x) = 


( 5 ) 


G{ai,bi,XN) 


G{ai,bi,XN) 


NxL 


Tablo I: Sik kullanilan degi§kenler ve notasyonlar. 


Notasyon 

A^iklama 

Notasyon 

A^iklama 

M 

Veri parga 

bollimleme uzunlugu 

T 

AdaBoost T boyutu 

h 

Simfiaiidirma 

fonksiyonu 

nh 

AOM’de kullanilan 
gizli diigiim sayisi 

Xm 

Veri seti, 2?, girdi 
degerlerinin m veri 
par9asi 

Dog 

Simflandirma 

hipotezinin 

dogmlugu 

Ym 

Veri seti, T), ^ikti 
degerlerinin m veri 
par^asi 

H. 

Hassasiyet 

e 

Hata orani 

G.C. 

Geri ^agirim 


C. MapReduce 

MapReduce yontemi yiiksek boyutlu veri setlerinin i§len- 
mesine olanak saglayan, ayrica Google tarafmdan da olduk9a 
sik kullanilan bir programlama modelidir [ 10 ]. Kullamcilar 
tarafindan tammlanan Map ve Reduce fonksiyonlari ve bu 
fonksiyonlara girdi degeri olarak verilen anahtar/deger dizileri 
(KeyA^alue pairs) kullamlmaktadir. MapReduce yonteminde 
kullanilan anahtar deger veri modeli genellikle ili§kisel veri 
modelleri ile tasarlanamayacak veri setlerine uygulanmak- 
tadir. Ornek olarak bir web sayfasmm adresi anahtar degerine 
yazilirken bu sayfamn HTML i9erigi ise deger alanina yazil- 
maktadir. Grafik tabanli veri modellerinde ise anahtar alani 
diigiim anahtar (id) bilgisini i9erirken deger ise liste olarak 
kendisine kom§u olan diigiimlerin anahtar bilgilerini i9erebilir. 

Map fonksiyonu paralel olarak girdi veri setinde bulunan 
her ikiliye uygulanmaktadir. Eonksiyon bir veri alanmda bulu¬ 
nan veri 9iftlerini alarak bunlari farkli bir alana veri 9ift listesi 
olarak vermektedir. 

Map{ai,di) —?> Iiste{a2,d2) (8) 

Reduce fonksiyonu ise yine paralel olarak Map fonksiyonu 
tarafindan ili§kilendirilmi§ anahtar deger yapisma uygulayarak 
yeni degerler listesi olu§turmaktadir. 

Reduce(a2,liste(d2)) —>■ liste{a3,dy) ( 9 ) 

MapReduce 9atisinin anahtar/deger §eklindeki 9iftlerden 
olu§an listeyi degerler listesi §ekline 9evirmektedir. 

III. SiSTEM MODELi 


burada a = a\,...,aL, b = 6i,...,6l, x = xi,...,X]v 
§eklindedir. ^ikti matrisi Denklem 6’de g6sterilmi§tir. 

T = [fi... /at] (6) 


Bu boliimde, MapReduce temelli AdaBoost AOM algorit- 
masinin detaylari verilecektir. Temel fikir Boliim III-A kis- 
minda anlatilacaktir. Sistemin ger9ekle§tirimi ise Boliim III-B 
kismmda tammlanacaktir. 


B. AdaBoost 

AdaBoost, nitelik matrisi X ve 9ikti simflari, y G 
{+1,-1}, kullanarak, zayif ogrenme modelleri, /it(x), bir- 
le§tirerek i 7 (x) §eklinde gii9lii simflandirma modeli olu§tur- 
maya 9ab§maktadir [ 9 ]. Denklem 7 ’de gii9lii simflandirma 
modeli gosterilmektedir. 


i 7 (x) 


sign{f{x)) = sign 


y^^athtjy 




( 7 ) 


A. Temel Fikir 

AdaBoost temelli AOM simflandirma algoritmasmm hesa- 
planmasi a§amasinin dagitik ve paralel hale getirilmesi bu 
9ali§manin esas gorevidir. Onerilen yontemin temel fikri, 
simflandirma topluluk fonksiyonlannm rassal veri par9alari 
{Xm, Ym) kullanilarak paralel olarak hesaplanmasidir. 

Tablo Tde, bildirinin anla§ilmasinda kolaylik olmasi i9in 
9ali§mada kullanilan degi§ken ve notasyonlarm ozeti ver- 
ilmi§tir. 















B. Modelin Gergekle§tirimi 

MapReduce temelli AdaBoost AOM algoritmasmm sozde 
kodu Algoritma 1 ve Algoritma 2’de g 6 sterilmi§tir. Onerilen 
ogrenme modelinin Map metodu, boliimleme boyutu, M, 
araligma kadar tam sayi olacak §ekilde rassal degerin egitim 
veri kiimesinin her bir satmna atanmasi §eklindedir. Map’in 
girdi degeri olan x, egitim veri kiimesi P’nin bir satiridir. 
Map metodu girdi matrisini satir olarak boliimlemekte ve 
< rassalBolumId,x > anahtar/deger ikililerini olu§turmak- 
tadir. rassalBolumId, veri par 9 asmin tammlayicisi olarak 
atanmakta ve anahtar olarak Reduce a§amasina transfer 
edilmektedir. Reduce a§amasinin sozde kodu Algoritma 2’de 


Algorithm 1 AdaBoost AOM: :Map 

1 : Girdi: 

(x, y) eV, M 
2 : fc ^ rand{0, M) 

3: Output{k, (x, y)) 


Tablo II: Kullanilan veri setlerinin bilgileri. 


Veri seti 

# Egitim 

# Test 

# Simf 

# Oz nitelik 

Pendigit 

7495 

3498 

10 

64 

Skin 

220543 

24507 

2 

4 

Statlog 

43500 

25000 

10 

7 

Page-blocks 

4500 

973 

5 

10 


B. Veri setlerinin Standart AOM He soniiglari 

Tablo Ill’de 9 ali§manin deneysel kismmda kullanilan veri 
setlerinin AOM sonu 9 lari payla§ilmi§tir. nh degeri, 1 - 500 
arasmda degi§mektedir. Performans 6 l 9 umleri i 9 in dogruluk, 
hassasiyet, geri 9 ekilme ve Fi degerleri kullanilmi§tir. 

Tablo III: Veri setlerinin standart AOM sonu 9 lari. 


g 6 sterilmi§tir. Reduce a§amasi, Algoritma 2 sozde kodunun 
3-8. satirlari arasmda bulunan dongiide ger 9 ekle§tirilmi§tir. 
Her bir veri par 9 asi, (Xfc,yfc), AdaBoost topluluk yontemi 
temelli AOM ile egitilmektedir. Boylece her bir Reduce i§lemi 
ayri bir simflandirma modeli ortaya 9 ikarmaktadir. Reduce 
i§leminde anahtar, k, Map a§amasmda rassal olarak atanan 
rassalBolumId, girdi olarak kullamlmaktadir. 


Algorithm 2 AdaBoost AOM: :Reduce 


1 : Girdi: 

Anahtar k, Deger V, T 
2: (X„, Yn) •<— V 
3: for t = 1..T do 
4: ht AOMCKnjy-n) 

5 : Ypred^^t 

6: a, ^ 1 In 

,T-, 'DtXexp{-atyiht(xi)) 

2 : Bt+i - -- 

8 : end for 
9: gikti: 

h,n = sign ai/it(x)^ 


IV. BENZETiM SONUgLARI 

Bu boliimde, internet ortammda a 9 ik olarak eri§ilebilen 
ger 9 ek veri setleri kullanilarak, onerilen modelin simflandirma 
performansi farkh 6 l 9 um yontemleri ile sinanmi§tir. Ger 9 ek- 
le§tirim a§amasinda 64 bit Python 2.7 yazilim dili ve MrJob 
kiitiiphanesi kullanilmi§tir. 

Boliim IV-A’da, deneysel ortamda kullanilan veri set¬ 
leri ve AOM’nin parametreleri a 9 iklanmaktadir. Standart 
AOM’nin her bir veri setinde simflandirma performanslarmm 
sakh diigiimlere gore degi§imi Boliim IV-B’de gosterilmek- 
tedir. Boliim IV-C’de, onerilen ogrenme modelinin deneysel 
sonu 9 lari tablo ve grafik olarak gosterilmektedir. 

A. Deneysel Kurulum 

Bu boliimde, onerilen yontem, Pendigit, Letter, Statlog 
ve Page-blocks §eklinde dort farkh veri seti kullanilarak 
simflandirma modeli olu§turulmu§, bu §ekilde yontemin etkin- 
ligi ve verimliligi 6 l 9 iimlenmeye 9 ah§ilmi§tir. Kullanilan a 9 ik 
dort farkh veri kiimesi Tablo Il’de gosterilmektedir. Kullanilan 
biitiin veri setleri, ikiden fazla etikete sahip, 90 k simflidir. 


Veri S. 

nh. 

Dog. 

H. 

G.C. 

Fi 

Pendigit 

149 

0,8404 

0,8393 

0,8416 

0,8407 

Skin 

98 

0,9754 

0,9956 

0,9583 

0,9894 

Statlog 

249 

0,8871 

0,8556 

0,9237 

0,9757 

Page Blocks 

498 

0,9873 

0,9794 

0,9988 

0,9977 


C. Soniiglar 

Bu 9 ali§ma kapsammda kullanilan veri setlerinin sinif 
dagilimlari dengesiz olmasmdan dolayi optimal simflandirici 
hipotezin bulunmasmda sadece geleneksel dogruluk tabanli 
performans 6 l 9 iimii yeterli degildir. Bu nedenle simflandirici 
hipotez 6 l 9 iimiinde ortalama dogruluk, ortalama hassasiyet, 
ortalama geri 9 ekim [5], Fi 6 l 9 iimii §eklinde dort farkh yontem 
kullanilmi§tir. Kullanilan yontemler bilgi 9 ikarimi alanmda en 
90 k kullanilan yontemlerdir [ 6 ]. 

Hassasiyet, elde edilen ilgili orneklerin toplam elde edilen 
orneklere oramdir. Hassasiyet Denklem lO’da gosterilmektedir. 

Hassasiyet = ^ogru - 

Dogru + Hata 

Geri 9 ekilme, elde edilen ilgili orneklerin toplam ilgili ornek¬ 
lere oramdir. Geri 9 ekilme Denklem 11 ’de gosterilmektedir. 

Gert Cekilme = ^ 

Dogru -f Kayip 

Onerilen modelde, her bir sinif i 9 in farkh olarak hassasiyet 
ve geri 9 ekilme degerleri hesaplamp toplam sinif sayisma 
boliinerek, elde edilen simflandirma hipotezinin ortalama 
6 l 9 um degerleri hesaplanmaktadir. Ortalama hassasiyet ve geri 
9 ekilme Denklem 12 ve Denklem 13’de gosterilmektedir. 


t 

Hassasiyetort =- / Hassasiyeti ( 12 ) 

‘tlsinif . p. 

2—0 

Geri Cekilmeort = - GeriGekilmet (13) 

tlsinif ■ n 
■’ 2=0 

Fi 6 l 9 umu, hassasiyet ve geri 9 ekilmenin harmonik ortala- 
masidir. Degerlendirme modeli, Denklem 14’de gosterilen Fi 






























Tablo IV: Veri setlerinin en iyi performans sonu 9 lari. 


Veri S. 

# c. 

T 

# H.N. 

Dog. 

H. 

G.C. 

Fi 

Pendigit 

20 

10 

21 

0,8256 

0,8369 

0,8234 

0,8301 

Skin 

21 

5 

21 

0,9892 

0,9773 

0,9913 

0,9842 

Statlog 

11 

2 

21 

0,9103 

0,7486 

0,5069 

0,6045 

Page Blocks 

1 

1 

340 

0,9404 

0,9027 

0,5756 

0,7030 


ol^umiiniin 90 k sinifli halini kullanmaktadir. 


Fi = 2 X 


Hassasiyetort x GeriCekilmeort 
Hassasiyetort + GeriCekilmeort 


(14) 


Yapilan ol 9 umlerin sonu 9 lari Tablo IV’de g 6 sterilmi§tir. 
Her bir veri seti i 9 in boliimleme, M, sakli diigiim sayisi, nh, 
AdaBoost iterasyon sayisi, T, parametrelerine gore dogruluk 
degi§iminin sonu 9 lari §ekil 1 - 4’de g 6 sterilmi§tir. Isi harita- 
larinda renk, siyaha yakla§masi durumunda modelin dogrulugu 
artmaktadir. Ol 9 ek her bir grafigin yaninda bulunan renk 
9 ubugu ile verilmi§tir. 



M 


(a) Bolumleme ve ad- 
aboost T boyu 



(b) Bolumleme ve gizli 
dugum sayisi. 



(c) AdaBoost T boyu ve 
gizli dtigum sayisi. 


§ekil 1: Statlog veri kiimesi isi haritasi. 



M 


(a) Bolumleme ve ad- 
aboost T boyu 



M 


(b) Bolumleme ve gizli 
diigum sayisi. 



(c) AdaBoost T boyu ve 
gizli diigum sayisi. 


§ekil 2: Pendigit veri kiimesi isi haritasi. 



(a) Bolumleme ve ad- (b) Bolumleme ve gizli (c) AdaBoost T boyu ve 
aboost T boyu diigum sayisi. gizli diigiim sayisi. 


§ekil 3: Skin veri kiimesi isi haritasi. 

V. soNug 

Bu 9 ali§mada, MapReduce temelli AdaBoost AOM algo- 
ritmasi uygulamasi, yiiksek boyutlu veri setlerinin egitilmesi 
i 9 in 6 nerilmi§tir. Girdi matrisini par 9 alara ayirarak, onerilen 
yontem, AOM siniflandirmasmm egitim a§amasinin karma§ik- 
hgini azaltmaktadir. Matrisin par 9 alanmasi ile ya§anacak olan 
simflandirma performans azalmasmm iistesinden gelmek i 9 in 



(a) Boliimleme ve ad- (b) Boliimleme ve gizli (c) AdaBoost T boyu ve 
aboost T boyu diigiim sayisi. gizli diigiim sayisi. 


§ekil 4: Page blocks veri kiimesi isi haritasi. 


AdaBoost yontemi ile desteklenmi§tir. Deneysel 9 ah§malarla 
elde edilen sonu 9 larla, sadece yiiksek boyutlu veri setlerinin 
egitim karma§ikligi azalmamakta ayrica geleneksel AOM al- 
goritmasinin simflandirma performansma gore arti§ ya§anmak- 
tadir. 

Bu 9 ali§ma kapsammda onerilen dagitik AOM yontemi veri 
par 9 a boliimleme uzunlugu, M, AdaBoost yontemi iterasyon 
sayisi, T, gizli katman diigiim sayisi, nh, §eklinde ii 9 parame- 
treye sahiptir. Isi haritasi graflklerinde gosterilen sonu 9 lara 
bakarak M ve T’nin, nh parametresine gore simflandirma 
performans 6 l 9 iimiine olan etkisi daha fazla oldugu gozlem- 
lenmektedir. 

Onerilen yontem, yiiksek boyutlu veri setlerinin kar- 
ma§ikligini, matrisi alt par 9 alara ayirarak, AOM egitim 
a§amasinin zorlugunu azaltmaktadir. Tablo III ve Tablo 
IV kar§ila§tirildiginda, model karma§iklik gostergesi olarak 
dii§iiniilen, nh sayismda azalma oldugu goriilmektedir. Bu 
nedenle, yontem sadece girdi matrisi karma§ikhgini degil ayni 
zamanda model karma§ikligininda azalmasim saglamaktadir. 
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